Gemma 4 - ミルヨムカク

Gemma 4

多様なアーキテクチャ: 高密度（Dense）型に加え、低負荷で高精度な「混合エキスパート（MoE）」を採用。スマホからサーバーまで柔軟に展開可能

ネイティブ・マルチモーダル: テキストと画像に加え、小型モデル（E2B/E4B）は音声入力に標準対応。動画解析もフレーム処理でこなす。

音声入力までこなすようになったのかミルヒト.icon

思考モード (Thinking): 推論プロセスを段階的に出力する専用モードを搭載し、論理的思考やコード生成能力が大幅に向上した。

長大なコンテキスト: 最大256Kトークンをサポートし、大規模な文書やコードベースの読み込みが可能。

効率化技術: PLE（レイヤごとのエンベディング）により、オンデバイスでのパラメータ効率を最大化している。

Gemma 4 12Bの概要

ノートPCでのローカル実行を想定した中規模マルチモーダルモデル

Gemma 4 E4Bと26B MoEの中間に位置するモデル

音声入力をネイティブでサポートする初のミドルサイズモデル

特徴的な統合アーキテクチャ

画像・音声専用の独立したエンコーダーを排除

画像は軽量な埋め込みモジュールで処理

音声信号は生のデータを直接テキストトークンと同じ次元空間に投影

エンコーダーフリー化によりメモリ使用量とレイテンシを削減

性能と効率性

26B MoEに近い推論能力を実現

16GBのVRAMまたはユニファイドメモリで動作可能

推論レイテンシ低減のためマルチトークン予測（MTP）ドラフターを搭載

開発・利用環境

Apache 2.0ライセンスで公開

Hugging FaceやKaggleからチェックポイントを入手可能

Ollama、LM Studio、llama.cpp、vLLMなどの主要フレームワークに対応

公式Skills Repositoryによるエージェント開発支援を提供